智能论文笔记

DAMO-NLP at NLPCC-2022 Task 2: Knowledge Enhanced Robust NER for Speech Entity Linking

Shen Huang , Yuchen Zhai , Xinwei Long , Yong Jiang , Xiaobin Wang , Yin Zhang , Pengjun Xie

分类：自然语言处理 | 人工智能 | 机器学习

2022-09-27

链接的语音实体旨在识别和消除语言中的命名实体。常规方法严重遭受了不受限制的语音样式和ASR系统产生的嘈杂笔录。在本文中，我们提出了一种名为“知识增强命名实体识别”（KENER）的新颖方法，该方法致力于通过在实体识别阶段无痛地纳入适当的知识来改善鲁棒性，从而改善实体联系的整体性能。肯纳（Kener）首先检索未提及的句子的候选实体，然后利用实体描述作为额外的信息来帮助识别提及。当输入短或嘈杂时，由密集检索模块检索的候选实体特别有用。此外，我们研究了各种数据采样策略和设计有效的损失功能，以提高识别和歧义阶段中检索实体的质量。最后，将与过滤模块的链接作为最终保障措施应用，从而可以过滤出错误认可的提及。我们的系统在NLPCC-2022共享任务2的轨道1中获得第一名，并在轨道1中获得第一名。

translated by 谷歌翻译

Asymptotic Statistical Analysis of $f$-divergence GAN

Xinwei Shen , Kani Chen , Tong Zhang

分类：机器学习 | (统计)机器学习

2022-09-14

生成对抗网络（GAN）在数据生成方面取得了巨大成功。但是，其统计特性尚未完全理解。在本文中，我们考虑了GAN的一般$ f $ divergence公式的统计行为，其中包括Kullback- Leibler Divergence与最大似然原理密切相关。我们表明，对于正确指定的参数生成模型，在适当的规律性条件下，所有具有相同歧视类别类别的$ f $ divergence gans均在渐近上等效。 Moreover, with an appropriately chosen local discriminator, they become equivalent to the maximum likelihood estimate asymptotically.对于被误解的生成模型，具有不同$ f $ -Divergences {收敛到不同估计器}的gan，因此无法直接比较。但是，结果表明，对于某些常用的$ f $ -Diverences，原始的$ f $ gan并不是最佳的，因为当更换原始$ f $ gan配方中的判别器培训时，可以实现较小的渐近方差通过逻辑回归。结果估计方法称为对抗梯度估计（年龄）。提供了实证研究来支持该理论，并证明了年龄的优势，而不是模型错误的原始$ f $ gans。

translated by 谷歌翻译

Boosting Sensitivity of Large-scale Online Experimentation via Dropout Buyer Imputation

Sumin Shen , Huiying Mao , Zezhong Zhang , Zili Chen , Keyu Nie , Xinwei Deng

分类：机器学习

2022-09-09

In online experimentation, appropriate metrics (e.g., purchase) provide strong evidence to support hypotheses and enhance the decision-making process. However, incomplete metrics are frequently occurred in the online experimentation, making the available data to be much fewer than the planned online experiments (e.g., A/B testing). In this work, we introduce the concept of dropout buyers and categorize users with incomplete metric values into two groups: visitors and dropout buyers. For the analysis of incomplete metrics, we propose a clustering-based imputation method using $k$-nearest neighbors. Our proposed imputation method considers both the experiment-specific features and users' activities along their shopping paths, allowing different imputation values for different users. To facilitate efficient imputation of large-scale data sets in online experimentation, the proposed method uses a combination of stratification and clustering. The performance of the proposed method is compared to several conventional methods in both simulation studies and a real online experiment at eBay.

translated by 谷歌翻译

Automatic Context Pattern Generation for Entity Set Expansion

Yinghui Li , Shulin Huang , Xinwei Zhang , Qingyu Zhou , Yangning Li , Ruiyang Liu , Yunbo Cao , Hai-Tao Zheng , Ying Shen

分类：自然语言处理

2022-07-17

实体集扩展（ESE）是一项有价值的任务，旨在找到给定种子实体描述的目标语义类别的实体。由于其发现知识的能力，各种NLP和下游应用程序都受益于ESE。尽管现有的引导方法取得了巨大进展，但其中大多数仍然依赖手动预定义的上下文模式。预定义的上下文模式的不可忽略的缺点是，它们不能灵活地推广到各种语义类别，我们将这种现象称为“语义敏感性”。为了解决这个问题，我们设计了一个上下文模式生成模块，该模块利用自回归语言模型（例如GPT-2）自动为实体生成高质量的上下文模式。此外，我们提出了GAPA，这是一种新型ESE框架，利用上述生成的模式扩展目标实体。对三个广泛使用的数据集进行了广泛的实验和详细分析，证明了我们方法的有效性。我们实验的所有代码都将用于可重复性。

translated by 谷歌翻译

Reframed GES with a Neural Conditional Dependence Measure

Xinwei Shen , Shengyu Zhu , Jiji Zhang , Shoubo Hu , Zhitang Chen

分类： (统计)机器学习 | 机器学习

2022-06-17

在非参数环境中，因果结构通常仅在马尔可夫等效性上可识别，并且出于因果推断的目的，学习马尔可夫等效类（MEC）的图形表示很有用。在本文中，我们重新审视了贪婪的等效搜索（GES）算法，该算法被广泛引用为一种基于分数的算法，用于学习基本因果结构的MEC。我们观察到，为了使GES算法在非参数设置中保持一致，不必设计评估图的评分度量。取而代之的是，足以插入有条件依赖度量的一致估计器来指导搜索。因此，我们提出了GES算法的重塑，该算法比基于标准分数的版本更灵活，并且很容易将自己带到非参数设置，并具有条件依赖性的一般度量。此外，我们提出了一种神经条件依赖性（NCD）度量，该措施利用深神经网络的表达能力以非参数方式表征条件独立性。我们根据标准假设建立了重新构架GES算法的最佳性，并使用我们的NCD估计器来决定条件独立性的一致性。这些结果共同证明了拟议的方法。实验结果证明了我们方法在因果发现中的有效性，以及使用我们的NCD度量而不是基于内核的措施的优势。

translated by 谷歌翻译

A Fair and Efficient Hybrid Federated Learning Framework based on XGBoost for Distributed Power Prediction

Haizhou Liu , Xuan Zhang , Xinwei Shen , Hongbin Sun

分类：机器学习 | 人工智能

2022-01-08

在现代电力系统中，关于发电/消耗的实时数据及其相关特征存储在各种分布式方中，包括家用仪表，变压器站和外部组织。为了充分利用这些分布式数据的潜在模式，以进行准确的功率预测，需要联合学习作为协作但隐私保留培训方案。然而，目前的联合学习框架偏振朝向解决数据的水平或垂直分离，并且倾向于忽略两个存在的情况。此外，在主流级联联合学习框架中，仅采用人工神经网络来学习数据模式，与表格数据集的基于树的模型相比，该数据模式被认为是更准确和解释的。为此，我们提出了一种基于XGBoost的混合联合学习框架，用于从实时外部功能的分布式电源预测。除了引入提升的树木以提高准确性和可解释性之外，我们还结合了水平和垂直的联邦学习，以解决特征在当地异构各方分散的场景，并在各种当地地区分散样品。此外，我们设计了动态任务分配方案，使得各方获得公平的信息份额，并且每个方的计算能力可以充分利用促进培训效率。提出了一个后续案例研究，以证明采用拟议框架的必要性。还确认了拟议框架的优点，效率和精度性能。

translated by 谷歌翻译

A Federated Learning Framework for Smart Grids: Securing Power Traces in Collaborative Learning

Haizhou Liu , Xuan Zhang , Xinwei Shen , Hongbin Sun

分类：机器学习

2021-03-22

随着智能传感器的部署和通信技术的进步，大数据分析在智能电网域中大大流行，告知利益相关者最好的电力利用策略。但是，这些电源相关数据被不同的各方存储和拥有。例如，功耗数据存储在跨城市的众多变压器站中;移动公司持有的人口的流动性数据，这是耗电量重要指标。直接数据分享可能会妥协党的福利，个人隐私甚至国家安全。灵感来自谷歌AI的联邦学习计划，我们向智能电网提出了联合学习框架，这使得能够协作学习功耗模式而不会泄漏各个电力迹线。当数据分散在样本空间中时，采用横向联合学习;另一方面，垂直联合学习是为散射在特征空间中的数据的情况而设计的。案例研究表明，通过适当的加密方案，如Paillier加密，从提出的框架构建的机器学习模型是无损，隐私保留和有效的。最后，讨论了智能电网其他方面的联合学习的有希望的未来，包括电动车辆，分布式发电/消费和集成能量系统。

translated by 谷歌翻译

Weakly Supervised Disentangled Generative Causal Representation Learning

Xinwei Shen , Furui Liu , Hanze Dong , Qing Lian , Zhitang Chen , Tong Zhang

分类：机器学习 | 人工智能 | (统计)机器学习

2020-10-06

本文提出了在适当的监督信息下进行分解的生成因果代表（亲爱的）学习方法。与实施潜在变量独立性的现有分解方法不同，我们考虑了一种基本利益因素可以因果关系相关的一般情况。我们表明，即使在监督下，先前具有独立先验的方法也无法解散因果关系。在这一发现的激励下，我们提出了一种称为DEAR的新的解开学习方法，该方法可以使因果可控的产生和因果代表学习。这种新公式的关键要素是使用结构性因果模型（SCM）作为双向生成模型的先验分布。然后，使用合适的GAN算法与发电机和编码器共同训练了先验，并与有关地面真相因子及其基本因果结构的监督信息合并。我们提供了有关该方法的可识别性和渐近收敛性的理论理由。我们对合成和真实数据集进行了广泛的实验，以证明DEAR在因果可控生成中的有效性，以及在样本效率和分布鲁棒性方面，学到的表示表示对下游任务的好处。

translated by 谷歌翻译

CausalVAE: Structured Causal Disentanglement in Variational Autoencoder

Mengyue Yang , Furui Liu , Zhitang Chen , Xinwei Shen , Jianye Hao , Jun Wang

分类：机器学习 | (统计)机器学习

2020-04-18

学习分离旨在寻找低维表示，该表示由观察数据的多个解释性和生成因素组成。变异自动编码器（VAE）的框架通常用于将独立因素从观察中解散。但是，在实际情况下，具有语义的因素不一定是独立的。取而代之的是，可能存在基本的因果结构，从而使这些因素取决于这些因素。因此，我们提出了一个名为Causalvae的新的基于VAE的框架，该框架包括一个因果层，将独立的外源性因子转化为因果内源性因素，这些因子与数据中的因果关系相关概念相对应。我们进一步分析了模型，表明从观测值中学到的拟议模型可以在一定程度上恢复真实的模型。实验是在各种数据集上进行的，包括合成和真实的基准Celeba。结果表明，因果关系学到的因果表示是可以解释的，并且其因果关系作为定向无环形图（DAG）的因果关系良好地鉴定出来。此外，我们证明了所提出的Causalvae模型能够通过因果因素的“操作”来生成反事实数据。

translated by 谷歌翻译

Backdoor Attacks Against Dataset Distillation

Yugeng Liu , Zheng Li , Michael Backes , Yun Shen , Yang Zhang

分类：机器学习

2023-01-03

Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.

translated by 谷歌翻译